2. Очистка чтений "java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2_trim.fastq TRAILING:20 MINLEN:50"
До чистки: 10410
После чистки: 10191
hisat2-build chr2.fasta chr2 | Индексирует референсную последовательность |
hisat2 -x chr2 -U chr2_trim.fastq -S chr2_align.sam --no-spliced-alignment --no-softclip | Строит выравнивание прочтений и референса в формате .sam |
samtools view chr2_align.sam -bo chr2_align.bam | Переводит выравнивание чтений с референсом в бинарный формат .bam |
samtools sort chr2_align.bam sorted | Сортирует выравнивание чтений с референсом по координате в референсе начала чтения |
samtools index sorted.bam | Индексирует отсортированный .bam файл |
Число чтений, картированных на референсную хромосому: 10191
Число не картированных чтений: 47
samtools mpileup -uf chr2.fasta -o snp.bcf sorted.bam | Создает бинарный файл с полиморфизмами |
bcftools call -cv snp.bcf -o snp.vcf | Создает файл со списком отличий между референсом и чтениями в формате .vcf |
Количество инделей: 7
№ | Координата | Тип полиморфизма | Буква в референсе | Буква в чтениях | Глубина покрытия | Качество чтений |
1 | 55516588 | Замена | G | C | 23 | 184.999 |
2 | 234202274 | Вставка | TCC | TCCC | 1 | 3.80767 |
3 | 238454154 | Замена | C | A | 101 | 225.009 |
convert2annovar.pl -format vcf4 snp.vcf > chr2.avinput |
Переводим файл .vcf формат, удобный для работы annovar |
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138 chr2.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Dbsnp |
annotate_variation.pl -out refgen -build hg19 chr2.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Refgene |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000Genomes chr2.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по 1000 Genomes |
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog chr2.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Gwas |
annotate_variation.pl chr2.avinput -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Clinvar |
CCDC88A 12 ATG16L1 29 MLPH 22 TRPS1 40
234183368 234183368 A G
Рак простаты 238443226 238443226 A G
ClinVar объединяет информацию о геномных вариациях (полиморфизмах), их отношении к здоровью человека